עיבוד שפות טבעיות מבוא

Similar documents
הטכנולוגיה בחינוך ד ר קובי גל אוניברסיטת בן גוריון בנגב

אנגלית שאלון ז' (MODULE G) ג רסה א' הוראות לנבחן )מילון אנגלי-ערבי / ערבי-אנגלי )

סטטיסטיקה בתכנית "מוסמך" ש"ת, ש 3 "ס.

Hebrew Ulpan HEB Young Judaea Year Course in Israel American Jewish University College Initiative

א נ ג ל י ת בהצלחה! ב. משרד החינוך בגרות לנבחנים אקסטרניים )מילון הראפס אנגלי-אנגלי-ערבי( השימוש במילון אחר טעון אישור הפיקוח על הוראת האנגלית.

שאלון ו' הוראות לנבחן

Question Answering. CS486 / 686 University of Waterloo Lecture 23: April 1 st, CS486/686 Slides (c) 2014 P. Poupart 1

נספח: כישורי חשיבה )לפרק ראשון ושני( אנגלית (MODULE F) ספרות או: מילון אנגלי-ערבי / ערבי-אנגלי או: מילון אנגלי-אנגלי-ערבי

קשירות.s,t V שני צמתים,G=(V,E) קלט: גרף מכוון מ- s t ל- t ; אחרת.0 אם יש מסלול מכוון פלט: הערה: הגרף נתון בייצוג של רשימות סמיכות.

Discourse Analysis

Anaphora Resolution in Biomedical Literature: A

שאלון ו' הוראות לנבחן

Name Page 1 of 5. דף ז. This week s bechina begins with the fifth wide line at the top of

נספח: כישורי חשיבה )לפרק ראשון ושני( אנגלית (MODULE F) ספרות מילון אנגלי-אנגלי-עברי או מילון אנגלי-עברי-עברי-אנגלי

נספח: כישורי חשיבה )לפרק ראשון ושני( אנגלית (MODULE D) ספרות מילון אנגלי-אנגלי-עברי או מילון אנגלי-עברי-עברי-אנגלי

אנגלית ספרות בהצלחה! /המשך מעבר לדף/ נספח: כישורי חשיבה )לפרק ראשון ושני( או: מילון אנגלי-ערבי / ערבי-אנגלי או: מילון אנגלי-אנגלי-ערבי

Theories of Justice

נספח: כישורי חשיבה )לפרק ראשון ושני( אנגלית (MODULE D) ספרות או מילון אנגלי-עברי-עברי-אנגלי

מגמת "גילוי ואיתור מידע דיגיטלי"

סוגיות בבלשנות משווה של השפות הרומאניות

Name Page 1 of 6. דף ט: This week s bechina starts at the two dots in the middle of

FILED: NEW YORK COUNTY CLERK 07/16/2014 INDEX NO /2014 NYSCEF DOC. NO. 134 RECEIVED NYSCEF: 07/16/2014 EXHIBIT 37

טכנולוגיית WPF מספקת למפתחים מודל תכנות מאוחד לחוויית בניית יישומיי

נספח: כישורי חשיבה )לפרק ראשון ושני( אנגלית (MODULE D) ספרות או מילון אנגלי-עברי-עברי-אנגלי

HEBREW THROUGH MOVEMENT

Natural Language Processing (NLP) 10/30/02 CS470/670 NLP (10/30/02) 1

Summing up. Big Question: What next for me on my Israel Journey?

אנגלית (MODULE E) בהצלחה!

מספר השאלון: Thinking Skills נספח: כישורי חשיבה )לפרק ראשון ושני( א נ ג ל י ת (MODULE F) ספרות )מילון הראפס אנגלי-אנגלי-ערבי(

מבוא לתרבות סייבר שיעור מס

How to Generate a Thesis Statement if the Topic is Not Assigned.

מיקוד באנגלית. Module D. New Program in English Literature. Option 1 שאלון אינטרני מספר שאלון אקסטרני מספר 414

Course Descriptions - Linguistics

מבוא למשפט האיחוד האירופי

הצעת תשובות לשאלות בחינת הבגרות אנגלית

(MODULE E) ב ה צ ל ח ה!

CML כנס שנתי של מודעות ל- CML 4-6 לאוקטובר 2018, מלון רמדה, חדרה

מספר השאלון: הצעת תשובות לשאלות בחינת הבגרות אנגלית (MODULE C) מילון אנגלי-אנגלי-עברי או מילון אנגלי-עברי-עברי-אנגלי قاموس إنجليزي - إنجليزي - عربي

Reflection Session: Sustainability and Me

COUNSELLING FOR ADDLESCENCE

אנגלית שאלון ז' ג רסה א' הוראות לנבחן בהצלחה! )4( ההנחיות בשאלון זה מנוסחות בלשון זכר ומכוונות לנבחנות ולנבחנים כאחד. (MODULE G)

Outline of today s lecture

Advisor Copy. Welcome the NCSYers to your session. Feel free to try a quick icebreaker to learn their names.

ASP.Net MVC + Entity Framework Code First.

ãówh,é ËÓÉÔê ÌW W É Å t" Y w f É ËÓÉÑ É èw É f Ñ u ð NNM YóQ' ÌW W É Y ÉgO d óqk É w f ym Éd É u ð NNM ÌWNQMH uqo ð NNM ÌWNQMH

ZLB, r*, and Secular Stagnation 11/6/2018

Anaphora Resolution in Hindi Language

Information Extraction. CS6200 Information Retrieval (and a sort of advertisement for NLP in the spring)

בהצלחה! (MODULE C) Hoffman, Y. (2014). The Universal English-Hebrew, Hebrew-English Dictionary

The Benefits of Being Stiff-Necked. Rabbi Noah Gradofsky

Parts of Speech

Functionalism and the Chinese Room. Minds as Programs

A Machine Learning Approach to Resolve Event Anaphora

On the hard problem of consciousness: Why is physics not enough?

מסורות דת ותרגום בדרום ודרום מזרח אסיה

Module - 02 Lecturer - 09 Inferential Statistics - Motivation

Can machines think? Machines, who think. Are we machines? If so, then machines can think too. We compute since 1651.

מבוא לשפת C מבוא לשפת סי - תירגול 1

The Art of Rebuke. Source #1: Story of Kamtzah and Bar Kamtzah Talmud Gittin 55b-56a

DP: A Detector for Presuppositions in survey questions

SEEDS OF GREATNESS MINING THROUGH THE STORY OF MOSHE S CHILDHOOD

08 Anaphora resolution

Anaphora Resolution in Biomedical Literature: A Hybrid Approach

x Philosophic Thoughts: Essays on Logic and Philosophy

מבוא לתכנות - פיתוח משחקים ב Action Script 3.0

תכנית סטארט עמותת יכולות, בשיתוף משרד החינוך א נ ג ל י ת שאלון א' Corresponds with Module A (Without Access to Information from Spoken Texts) גרסה א'

DNS פרק 4 ג' ברק גונן מבוסס על ספר הלימוד "רשתות מחשבים" עומר רוזנבוים 1

THE WISDOM OF PROVERBS #1: WHAT & WHY

Automatic Evaluation for Anaphora Resolution in SUPAR system 1

Mindwise: Why We Misunderstand What Others Think, Believe, Feel, And Want PDF

Quantitative Finance Major

A lot of the time when people think about Shabbat they focus very heavily on the things they CAN T do.

Artificial Intelligence: Valid Arguments and Proof Systems. Prof. Deepak Khemani. Department of Computer Science and Engineering

מבוא לשפת C תירגול 1: מבוא מבוא לשפת סי - תירגול 1

Quantitative Finance Major

A R E Y O U R E A L L Y A W A K E?

תקנון תואר ראשון - המחלקה למדעי המחשב

Overview of College Board Noncognitive Work Carol Barry

Inimitable Human Intelligence and The Truth on Morality. to life, such as 3D projectors and flying cars. In fairy tales, magical spells are cast to

INFORMATION EXTRACTION AND AD HOC ANAPHORA ANALYSIS

שאלון ד' הוראות לנבחן

***** [KST : Knowledge Sharing Technology]

Reference Resolution. Regina Barzilay. February 23, 2004

WHAT ATHEISM HAS LEARNED FROM RELIGION

Coreference Resolution Lecture 15: October 30, Reference Resolution

Reference Resolution. Announcements. Last Time. 3/3 first part of the projects Example topics

ביצה דף. ***Place an X if Closed גמרא (if no indication, we ll assume Open חזרה (גמרא of the :דף times

Apple, keys, pen, pencils, pencilbox,(toy)elephant,( toy) boy, (toy) girl, ball

New Strategies for Countering Homegrown Violent Extremism: Preventive Community Policing

Introduction to Statistical Hypothesis Testing Prof. Arun K Tangirala Department of Chemical Engineering Indian Institute of Technology, Madras

Identifying Anaphoric and Non- Anaphoric Noun Phrases to Improve Coreference Resolution

THINKING ABOUT REST THE ORIGIN OF SHABBOS

Patents Basics. Yehuda Binder. (For copies contact:

Cataloging for the Preaching and Worship Portal Harry Plantinga April 10, 2014

(Refer Slide Time 03:00)

מה הקשר בין השפה ליכולת הסקה על אמונה שגויה?

A JEW WALKS INTO A BAR: JEWISH IDENTITY IN NOT SUCH JEWISH PLACES

ASTM UL / FM / BS abesco

occasions (2) occasions (5.5) occasions (10) occasions (15.5) occasions (22) occasions (28)

Statistical anaphora resolution in biomedical texts

Transcription:

עיבוד שפות טבעיות מבוא ד"ר יואב גולדברג פרופ' עידו דגן )קרדיט לחלק מהשקפים: אורן גליקמן( המחלקה למדעי המחשב אוניברסיטת בר אילן 1

מבנה הקורס ודרישות 2 תרגילים 40% כ- 4, תכנות בזוגות שפת תכנות: ושימוש בתוכנות NLP Python מבחן 60% אתר הקורס: http://www.cs.biu.ac.il/~ אפשר הגשה הערה: החומר בספרים אינו מכסה חלקים ניכרים מהחומר ולכן נחוץ להגיע להרצאות.

מקורות Recommended readings along the course Speech and Language Processing, 2 nd edition By Daniel Jurafsky and James H. Martin http://www.cs.colorado.edu/~martin/slp/slp-ch1.pdf 3 3 rd edition draft: https://web.stanford.edu/~jurafsky/slp3/ Jacob Eisenstein online book https://github.com/jacobeisenstein/gt-nlpclass/blob/master/notes/eisenstein-nlp-notes.pdf Foundations of Statistical NLP Christopher D. Manning and Hinrich Schutze 1999, MIT Press. http://nlp.stanford.edu/fsnlp/promo/

מה זה בכלל עיבוד שפות טבעיות נקרא גם "בלשנות חישובית Natural Language Processing/ Computational Linguistics כל מה שקשור בהבנה, ניתוח, יצירה ועיבוד של שפות טבעיות )להבדיל משפות מחשב, למשל( שפה מהווה ייצוג של משמעות איננו מתיימרים להגיע להבנה "אמיתית" של משמעות, אלא לבצע פעולות מועילות למרות החוסר בהבנה, או להגיע למודלים מקורבים 4

דוגמאות לאפליקציות/יישומים תרגום ממוחשב חיפוש ואחזור מידע מענה לשאלות Answering Question שליפת מידע Extraction Information טיפול במונחים: שליפה, דמיון, סיווג שמות תמצות אוטומטי אפליקציות בתחום הדיבור: מערכות דיאלוג תיקון שגיאות כתיב ותחביר (eg. Microsoft Word) 5

6

7

Towards text understanding: Question Answering 8

9

Search may benefit understanding Query: AIDS treatment Irrelevant document: Hemophiliacs lack a protein, called factor VIII, that is essential for making blood clots. As a result, they frequently suffer internal bleeding and must receive infusions of clotting protein derived from human blood. During the early 1980s, these treatments were often tainted with the AIDS virus. In 1984, after that was discovered, manufacturers began heating factor VIII to kill the virus. The strategy greatly reduced the problem but was not foolproof. However, many experts believe that adding detergents and other refinements to the purification process has made natural factor VIII virtually free of AIDS. (AP890118-0146, TIPSTER Vol. 1) Many irrelevant documents mention AIDS and treatments for other diseases 10

Relevant Document Query: AIDS treatment Federal health officials are recommending aggressive use of a newly approved drug that protects people infected with the AIDS virus against a form of pneumonia that is the No.1 killer of AIDS victims. The Food and Drug Administration approved the drug, aerosol pentamidine, on Thursday. The announcement came as the Centers for Disease Control issued greatly expanded treatment guidelines recommending wider use of the drug in people infected with the AIDS virus but who may show no symptoms. (AP890616-0048, TIPSTER VOL. 1) Relevant documents may mention specific types of treatments for AIDS 11

Information Extraction (IE) Identify information of pre-determined structure Automatic filling of forms Example - extract product information: Company Product Type Product Name Hyundai Car Accent Hyundai Car Elantra Suzuki Motorcycle R-350 12

13

14

15

מדעים קשורים בלשנות למידת מכונה והסקה סטטיסטית פסיכולינגויסטיקה מדעי המחשב )AI( אלגוריתמים )חיפוש למשל( מדעי המוח Science( (Cognitive 17

שפה טבעית לעומת שפת מחשב שפות מחשב )באופן כללי( הנן חד-משמעיות ומוגדרות היטב. קומפילר יכול )ע"י )Parser לתרגם קוד לפקודות שפת מכונה. לדוגמא: יש הבחנה בין שווה במשמעות של (=) assignment לעומת (==).equality יש סדר מוגדר על פרדיקטים d או ולא גדול מ c b a a > b &&!c d a > b && (!c d) a > b &&!(c d) 18

ו ו או או )or( היינו דו משמעי בעברית )ואנגלית(: אתה יכול לקבל קפה או תה. (Exclusive) אתה רוצה קפה או עוגה? )Inclusive( עוד דוגמא: )טווח כמתים )quantifier scope "כמעט ניצחתי את כל שאר המתחרים בתחרות"( "באמת?" "כן: כמעט ניצחתי את ירון, כמעט ניצחתי את איריס, כמעט ניצחתי את אלון,..." 19

עברית קשה שפה לא רק עברית! השפה הטבעית מלאת רב משמעויות, ברמות שונות: כותרת תמונה בעיתון השבוע: "גופות הרוגים בפיגוע ליד בית חולים בבאלי היום." האם הפיגוע היה ליד בית חולים? מתי ארע הפיגוע? 20

רב משמעות תחבירית במשפט הבא 15 מילים ולפחות 455)!( ניתוחים תחביריים אפשריים: List the sales of the products produced in 1973 with the products produced in 1972. 22

Variability of Semantic Expression All major stock markets surged Dow ends up Dow climbs 255 Dow gains 255 points Stock market hits a record high The Dow Jones Industrial Average closed up 255 23

AI & Turing Test AI complete נחשב כ- NLP Turing Test: is a computer program intelligent? (1954) Would a human find out that he speaks with a computer? 24

רמות ידע לשוני פונטיקה ופונולוגיה מורפולוגיה תחביר )Syntax( סמנטיקה פרגמטיקה, שיח )Discourse( ידע כללי Knowledge( )World 25

Two dimensions of NLP Research Language analysis Applications 26

Deep into Deep Leraning In recent years, deep learning methods got tremendous momentum in AI This includes NLP Machine translation, parsing, summarization, Improved results in many areas, but not all Requires much training data Traditional NLP analysis often integrated We will touch on it in this course, mostly covered in Goldgerg s DL for texts and sequences 27

Course Material Highlights Part-of-speech tagging Syntactic chunking Named entity recognition Application: information extraction Syntactic parsing Semantic analysis Semantic parsing, learning semantic relationships, coreference resolution Semantic applications relation extraction 28